Extrair texto
Ao extrair um grande volume de texto em documentos, o processo pode ser ineficiente e demorado, especialmente ao lidar com tabelas e grandes quantidades de parágrafos. No entanto, o método ExtractText da IronWord é uma solução econômica de tempo. Ele permite que os desenvolvedores extraíam facilmente uma quantidade específica de texto dentro do documento, eliminando a necessidade de loops adicionais e simplificando o acesso para a propriedade Text. Esse método garante que os desenvolvedores possam trabalhar de forma eficiente e economizar tempo valioso.
Neste exemplo, vamos mostrar várias maneiras de usar o método ExtractText e aumentar sua eficiência ao recuperar texto de documentos.
Formas úteis de extrair texto de um arquivo Docx
using IronWord;WordDocument doc = new WordDocument("multi-paragraph.docx");Console.WriteLine(doc.ExtractText());Console.WriteLine(doc.Paragraphs[0].ExtractText());Console.WriteLine(doc.Paragraphs.Last().ExtractText());
Texto extraído
Utilizando a biblioteca IronWord , extrair texto de um documento do Word é um processo simples. Começamos importando a biblioteca e inicializando a classe WordDocument. Esta etapa nos permite carregar um documento existente com parágrafos. Em seguida, chamamos o método ExtractText e imprimimos o texto inteiro do documento no console.
Extrair texto específico
O exemplo acima extrai o texto completo do documento, mas com a biblioteca IronWord , você tem controle total sobre o processo de extração. Se você deseja apenas porções ou parágrafos específicos, pode usar a propriedade Paragraphs no WordDocument para retornar um array de Paragraphs. Como uma lista genérica, este array pode ser manipulado conforme suas necessidades, seja chamando o índice conforme mostrado acima com doc.Paragraphs[0] ou usando os métodos de array embutidos para coleções C#.
Ao acessar o índice de Paragraphs, retornamos e extraímos o texto apenas do primeiro parágrafo do documento e o imprimimos no console. Subsequentemente, também o chamamos Last no array Paragraphs para retornar e extrair o texto do último parágrafo somente do documento.

